亚洲精品国产综合久久久久紧,久久99精品久久久久久清纯,人妻无码一区二区三区在线,ぱらだいす天堂中文网WWW

聯(lián)
咨詢熱線:

185-9527-1032

聯(lián)系QQ:

2863379292

官方微信:

Google搜索引擎原理

全網(wǎng)營(yíng)銷

導(dǎo)讀:這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應(yīng)用廣泛。Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁(yè)并建立索引,它的查詢結(jié)

發(fā)表日期:2020-06-03

文章編輯:興田科技

瀏覽次數(shù):9301

標(biāo)簽:

這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應(yīng)用廣泛。Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁(yè)并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。這個(gè)原型的全文和超連接的數(shù)據(jù)庫(kù)至少包含24′000′000個(gè)網(wǎng)頁(yè)。我們可以從http://google.stanford.edu/ 下載。

設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。搜索引擎為上億個(gè)網(wǎng)頁(yè)建立索引,其中包含大量迥然不同的詞匯。而且每天要回答成千上萬(wàn)個(gè)查詢。在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。此外由于技術(shù)的快速發(fā)展和網(wǎng)頁(yè)的大量增加,現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。

本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細(xì)。除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級(jí)網(wǎng)頁(yè)中所遇到的問題,還有許多新的技術(shù)挑戰(zhàn),包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。

本文將解決這個(gè)問題,描述如何運(yùn)用超文本中的附加信息,建立一個(gè)大型實(shí)用系統(tǒng)。任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無(wú)組織的超文本集合,也是本文要關(guān)注的問題。

關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,pageRank, Google

1 緒論

Web給信息檢索帶來(lái)了新的挑戰(zhàn)。Web上的信息量快速增長(zhǎng),同時(shí)不斷有毫無(wú)經(jīng)驗(yàn)的新用戶來(lái)體驗(yàn)Web這門藝術(shù)。人們喜歡用超級(jí)鏈接來(lái)網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁(yè)或搜索引擎開始。大家認(rèn)為L(zhǎng)ist(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護(hù)的代價(jià)高,升級(jí)慢,不能包括所有深?yuàn)W的主題?;陉P(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。使問題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。應(yīng)用超文本結(jié)構(gòu),大大提高了查詢質(zhì)量。我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。

1.1網(wǎng)絡(luò)搜索引擎—升級(jí)換代(scaling up):

1994-2000 搜索引擎技術(shù)不得不快速升級(jí)(scale dramatically)跟上成倍增長(zhǎng)的web數(shù)量。

1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁(yè)和Web的文件。

到1994年11月,頂級(jí)的搜索引擎聲稱可以檢索到2‘000′000(WebCrawler)至100‘000′000個(gè)網(wǎng)絡(luò)文件(來(lái)自 Search Engine Watch)。

可以預(yù)見到2000年,可檢索到的網(wǎng)頁(yè)將超過1‘000′000‘000。同時(shí),搜索引擎的訪問量也會(huì)以驚人的速度增長(zhǎng)。

在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢。

在1997年11月,Altavista 聲稱它每天要處理大約20′000′000個(gè)查詢。隨著網(wǎng)絡(luò)用戶的增長(zhǎng).

到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢。我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問題,包括質(zhì)量和可升級(jí)性,引入升級(jí)搜索引擎技術(shù)(scaling search engine technology),把它升級(jí)到如此大量的數(shù)據(jù)上。

1.2 Google:

跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。抓網(wǎng)頁(yè)技術(shù)必須足夠快,才能跟上網(wǎng)頁(yè)變化的速度(keep them up to date)。存儲(chǔ)索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。處理查詢必須快,達(dá)到每秒能處理成百上千個(gè)查詢(hundreds to thousands per second.)。隨著Web的不斷增長(zhǎng),這些任務(wù)變得越來(lái)越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長(zhǎng),可以部分抵消這些困難。還有幾個(gè)值得注意的因素,如磁盤的尋道時(shí)間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。在設(shè)計(jì)Google的過程中,我們既考慮了Web的增長(zhǎng)速度,又考慮了技術(shù)的更新。Google的設(shè)計(jì)能夠很好的升級(jí)處理海量數(shù)據(jù)集。它能夠有效地利用存儲(chǔ)空間來(lái)存儲(chǔ)索引。優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存?。▍⒖?.2節(jié))。進(jìn)一步,我們希望,相對(duì)于所抓取的文本文件和HTML網(wǎng)頁(yè)的數(shù)量而言,存儲(chǔ)和建立索引的代價(jià)盡可能的?。▍⒖几戒汢)。對(duì)于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級(jí)性(scaling properties)。

1. 3設(shè)計(jì)目標(biāo)

1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。

1994年,有人認(rèn)為建立全搜索索引(a complete search index)可以使查找任何數(shù)據(jù)都變得容易。根據(jù)Best of the Web 1994 — Navigators ,“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易(當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄)”。然而1997年的Web就迥然不同。近來(lái)搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評(píng)價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junk result”中。實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己)。導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級(jí),但是用戶能夠看的文檔數(shù)卻沒有增加。用戶仍然只希望看前面幾十個(gè)搜索結(jié)果。因此,當(dāng)集合增大時(shí),我們就需要工具使結(jié)果精確(在返回的前幾十個(gè)結(jié)果中,有關(guān)文檔的數(shù)量)。由于是從成千上萬(wàn)個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價(jià)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用。尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見2.1和2.2 節(jié))。

1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝,除了發(fā)展迅速,Web越來(lái)越商業(yè)化。

1993年,只有1.5%的Web服務(wù)是來(lái)自.com域名。到1997年,超過了60%。同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少技公開術(shù)細(xì)節(jié)。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對(duì)它的了解。另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。應(yīng)用對(duì)我們來(lái)說非常重要,因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬(wàn)個(gè)研究。然而,得到這些數(shù)據(jù)卻非常困難,主要因?yàn)樗鼈儧]有商業(yè)價(jià)值。我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。為了支持新研究,Google以壓縮的形式保存了實(shí)際所抓到的文檔。設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到結(jié)果。系統(tǒng)在短時(shí)間內(nèi)被建立起來(lái),已經(jīng)有幾篇論文用到了 Google建的數(shù)據(jù)庫(kù),更多的在起步中。我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境,在這里研究者甚至學(xué)生都可以對(duì)我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。

相關(guān)推薦

更多新聞

  • 11-9

    2019

    全網(wǎng)營(yíng)銷 / 2019-11-09

    9月后百度收錄新站潛規(guī)則及對(duì)應(yīng)方法

    關(guān)于百度收錄新站問題,可以說是老生常談了。各種聲音不絕于耳,各類文章也經(jīng)??吹剑欢鵀槭裁纯偸怯泻芏嗳藛?為什么百度不收錄我網(wǎng)站?為什么百度收錄了內(nèi)頁(yè)不收錄首頁(yè)。當(dāng)然,這

    View details

  • 8-24

    2023

    全網(wǎng)營(yíng)銷 / 2023-08-24

    伊春網(wǎng)絡(luò)推廣:提升您的在線業(yè)務(wù)到新的高度

    搜索引擎優(yōu)化是伊春網(wǎng)絡(luò)推廣戰(zhàn)略中的一個(gè)重要組成部分。通過優(yōu)化您的網(wǎng)站,您可以在搜索引擎結(jié)果頁(yè)面中獲得更高的排名,使您的品牌更容易被用戶發(fā)現(xiàn)。

    View details

  • 8-23

    2023

    全網(wǎng)營(yíng)銷 / 2023-08-23

    上饒網(wǎng)站優(yōu)化:提升您網(wǎng)站的可見性和流量

    上饒網(wǎng)站優(yōu)化是一個(gè)持續(xù)的過程,它需要不斷地優(yōu)化和改進(jìn)。通過研究關(guān)鍵字、優(yōu)化網(wǎng)站結(jié)構(gòu)和內(nèi)容、改善用戶體驗(yàn)等方面的工作,您可以提升網(wǎng)站的可見性和流量,從而為您的業(yè)務(wù)帶來(lái)更多的機(jī)會(huì)和成功。開始優(yōu)化您的網(wǎng)站,并利用上饒網(wǎng)站優(yōu)化的力量吧!

    View details

  • 8-24

    2023

    全網(wǎng)營(yíng)銷 / 2023-08-24

    佳木斯網(wǎng)絡(luò)推廣:將您的業(yè)務(wù)推向新的高度

    搜索引擎優(yōu)化(SEO)是提高網(wǎng)站在搜索引擎結(jié)果頁(yè)面上的排名的關(guān)鍵。通過優(yōu)化您的網(wǎng)站內(nèi)容、關(guān)鍵詞和標(biāo)簽等,可以提高搜索引擎對(duì)您網(wǎng)站的可見性。關(guān)鍵詞“佳木斯網(wǎng)絡(luò)推廣”可在您的網(wǎng)站內(nèi)容中使用,以增加與佳木斯地區(qū)相關(guān)的搜索流量。

    View details